智能论文笔记

Open-Source Framework for Encrypted Internet and Malicious Traffic Classification

Ofek Bader , Adi Lichy , Amit Dvir , Ran Dubin , Chen Hajaj

分类：机器学习

2022-06-21

互联网流量分类在网络可见性，服务质量（QoS），入侵检测，经验质量（QOE）和交通趋势分析中起关键作用。为了提高隐私，完整性，机密性和协议混淆，当前的流量基于加密协议，例如SSL/TLS。随着文献中机器学习（ML）和深度学习（DL）模型的使用增加，由于缺乏标准化的框架，不同模型和方法之间的比较变得繁琐且困难。在本文中，我们提出了一个名为OSF-EIMTC的开源框架，该框架可以提供学习过程的完整管道。从著名的数据集到提取新的和知名的功能，它提供了著名的ML和DL模型（来自交通分类文献）的实现以及评估。这样的框架可以促进交通分类域的研究，从而使其更可重复，可重复，更易于执行，并可以更准确地比较知名和新颖的功能和新颖的功能和模型。作为框架评估的一部分，我们演示了可以使用多个数据集，模型和功能集的各种情况。我们展示了公开可用数据集的分析，并邀请社区使用OSF-EIMTC参与我们的公开挑战。

translated by 谷歌翻译

When a RF Beats a CNN and GRU, Together -- A Comparison of Deep Learning and Classical Machine Learning Approaches for Encrypted Malware Traffic Classification

Adi Lichy , Ofek Bader , Ran Dubin , Amit Dvir , Chen Hajaj

分类：机器学习

2022-06-16

互联网流量分类广泛用于促进网络管理。它在服务质量（QoS），经验质量（QOE），网络可见性，入侵检测和交通趋势分析中起着至关重要的作用。尽管没有理论上的保证，即基于深度学习的解决方案比经典的机器学习（ML）的解决方案更好，但基于DL的模型已成为常见默认值。本文比较了著名的基于DL和基于ML的模型，并表明，在恶意交通分类的情况下，最先进的基于DL的解决方案不一定优于基于经典的ML的解决方案。我们使用两个知名数据集来体现这一发现，用于各种任务，例如：恶意软件检测，恶意软件家庭分类，零日攻击的检测以及对迭代增长数据集的分类。请注意，评估所有可能的模型以做出具体陈述是不可行的，因此，上述发现不是避免基于DL的模型的建议，而是经验证明，在某些情况下，有更简单的解决方案，即更简单的解决方案，即可能表现更好。

translated by 谷歌翻译

Exploring the Challenges of Open Domain Multi-Document Summarization

John Giorgi , Luca Soldaini , Bo Wang , Gary Bader , Kyle Lo , Lucy Lu Wang , Arman Cohan

分类：自然语言处理 | 人工智能

2022-12-20

Multi-document summarization (MDS) has traditionally been studied assuming a set of ground-truth topic-related input documents is provided. In practice, the input document set is unlikely to be available a priori and would need to be retrieved based on an information need, a setting we call open-domain MDS. We experiment with current state-of-the-art retrieval and summarization models on several popular MDS datasets extended to the open-domain setting. We find that existing summarizers suffer large reductions in performance when applied as-is to this more realistic task, though training summarizers with retrieved inputs can reduce their sensitivity retrieval errors. To further probe these findings, we conduct perturbation experiments on summarizer inputs to study the impact of different types of document retrieval errors. Based on our results, we provide practical guidelines to help facilitate a shift to open-domain MDS. We release our code and experimental results alongside all data or model artifacts created during our investigation.

translated by 谷歌翻译

An artificial neural network-based system for detecting machine failures using tiny sound data: A case study

Thanh Tran , Sebastian Bader , Jan Lundgren

分类：机器学习

2022-09-23

为了提倡研究基于深度学习的机器故障检测系统的研究，我们根据微小的声音数据集对拟议系统进行了案例研究。我们的案例研究调查了一个变异自动编码器（VAE），用于增强Valmet AB的小型钻头数据集。一个气门数据集包含134种声音，分为两类：从Valmet AB的一台钻机中记录的“异常”和“正常”，这是瑞典Sundsvall的一家公司，该公司为生物燃料的生产提供设备和流程。使用深度学习模型来检测如此小的声音数据集上的故障钻头通常没有成功。我们采用了VAE来通过合成原始声音的新声音来增加微小数据集中的声音数量。增强数据集是通过将这些合成的声音与原始声音相结合来创建的。我们使用了一个高通滤波器，其通带频率为1000 Hz和一个具有22 \ kern的Passband频率的低通滤波器0.16667EM000 Hz，以在增强数据集中的预处理声音中，然后将其转换为MEL频谱图。然后使用这些MEL频谱图对预训练的2D-CNN ALEXNET进行训练。与使用原始的小声音数据集进行训练预先训练的Alexnet时，使用增强声音数据集将CNN模型的分类结果提高了6.62 \％（94.12 \％（在增强数据集对87.5 \％训练的原始训练时，接受了87.5 \％）数据集）。

translated by 谷歌翻译

Denoising Induction Motor Sounds Using an Autoencoder

Thanh Tran , Sebastian Bader , Jan Lundgren

分类：人工智能

2022-08-08

Denoising是从声音信号中消除噪音的过程，同时提高声音信号的质量和充分性。 Denoising Sound在语音处理，声音事件分类和机器故障检测系统中有许多应用。本文介绍了一种创建自动编码器来映射噪声机器声音以清洁声音的方法。声音中有几种类型的噪声，例如，环境噪声和信号处理方法产生的频率依赖性噪声。环境活动产生的噪音是环境噪声。在工厂中，可以通过车辆，钻探，人员在调查区，风和流水中进行交谈来产生环境噪音。这些噪音在声音记录中显示为尖峰。在本文的范围内，我们证明了以高斯分布和环境噪声的消除，并以感应电动机的水龙头水龙头噪声为特定示例。对所提出的方法进行了训练和验证，并在49个正常功能声音和197个水平错位故障声音（Mafaulda）中进行了验证。均方根误差（MSE）用作评估标准，用于评估使用拟议的自动编码器和测试集中的原始声音在deno的声音之间的相似性。当Denoise在正常函数类别的15个测试声音上两种类型的噪声时，MSE低于或等于0.14。当在水平错位故障类别上降低60个测试声音时，MSE低于或等于0.15。低MSE表明，生成的高斯噪声和环境噪声几乎都通过拟议的训练有素的自动编码器从原始声音中删除。

translated by 谷歌翻译

Discovering Behavioral Predispositions in Data to Improve Human Activity Recognition

Maximilian Popko , Sebastian Bader , Stefan Lüdtke , Thomas Kirste

分类：机器学习 | 人工智能

2022-07-18

基于传感器的自动评估痴呆症患者的挑战行为是支持选择干预措施的重要任务。但是，由于患者间和病人的差异很大，预测诸如冷漠和躁动之类的行为具有挑战性。本文的目的是通过利用患者在一天中或一周中的某些时间表现出特定行为的观察来提高识别性能。我们建议通过聚类时间段的注释分布来识别类似行为的段。群集中的所有时间段然后由相似的行为组成，因此表明行为倾向（BPD）。我们通过为每个BPD培训分类器来利用BPD。从经验上讲，我们证明，当知道每个时间段的BPD时，活动识别性能可以大大提高。

translated by 谷歌翻译

Validation of Vector Data using Oblique Images

Pragyana Mishra , Eyal Ofek , Gur Kimchi

分类：计算机视觉 | 机器学习

2022-06-17

倾斜的图像是与地球表面的倾斜角度拍摄的航拍照片。这些图像中向量和其他地理空间数据的投影取决于摄像机参数，地理空间实体的位置，表面地形，遮挡和可见性。本文提出了一种可靠且可扩展的算法，以使用斜图像检测矢量数据的不一致。该算法使用图像描述符来编码图像中地理空间实体的局部外观。这些图像描述符结合了颜色，像素强度梯度，纹理和可检测的滤镜响应。对向量机分类器进行了训练，以检测与基础矢量数据，数字高程图，建筑模型和摄像头参数不一致的图像描述符。在本文中，我们在可见的路段和非道路数据上训练分类器。此后，训练有素的分类器检测到矢量的不一致，其中包括封闭和未对准的道路细分市场。一致的道路段验证了我们的向量，DEM和3-D模型数据的这些区域，而段不一致指出了错误。我们进一步表明，搜索与未对齐道路不一致的可见路段一致的描述符会产生与图像中像素一致的所需道路对齐。

translated by 谷歌翻译

COVID-19 Electrocardiograms Classification using CNN Models

Ismail Shahin , Ali Bou Nassif , Mohamed Bader Alsabek

分类：机器学习 | 人工智能

2021-12-15

随着Covid-19的周期性上升和堕落和受其后果影响的许多国家，科学家，研究人员和世界各地的医生都是巨大的工作。迅速干预敏锐需要解决对疾病的不合情理传播。通过应用深度学习算法的基础，实施人工智能（AI）对数字健康区对数字健康区进行了重大贡献。在本研究中，提出了一种新的方法，通过使用深度学习算法的集成，特别是卷积神经网络（CNN）模型来自动诊断Covid-19。在该提议的框架中使用了几种CNN模型，包括VGG16，VGG19，InceptionResNetv2，Inceptionv3，Reset50和Densenet201。 VGG16型号优于鞋底的其余部分，精度为85.92％。与VGG16模型相比，我们的结果在其余的模型中显示了相对较低的精度，这是由于所使用的数据集的尺寸较小，除了仅用于VGG16型号的网格搜索超参数优化方法。此外，我们的结果是准备的，并且可以通过进一步扩展数据集来增强所有模型的准确性，并调整合适的超参数优化技术。

translated by 谷歌翻译

On the Potential of Execution Traces for Batch Processing Workload Optimization in Public Clouds

Dominik Scheinert , Alireza Alamgiralem , Jonathan Bader , Jonathan Will , Thorsten Wittkopp , Lauritz Thamsen

分类：机器学习

2021-11-16

随着越来越多的数据，数据处理工作负载和其资源使用的管理变得越来越重要。由于管理专用基础架构是在许多情况下不可行或不经济的情况下，用户逐步执行其各自的工作负载在云中。由于工作负载和资源的配置通常是具有挑战性的，已经提出了各种方法，以便快速朝着良好的配置简化或基于先前运行的数据确定一个。仍然，培训此类方法的性能数据通常缺乏，并且必须昂贵地收集。在本文中，我们提出了一种协作方法，用于在用户之间共享匿名工作负载执行迹线，为常规模式进行挖掘，并利用历史工作负载的集群以供将来的优化。我们在公开可用的跟踪数据集上评估我们的原型实现，以便在公开的跟踪数据集上挖掘工作负载执行图，并演示通过迹线确定的工作负载群集的预测值。

translated by 谷歌翻译

Optimal Inverted Landing in a Small Aerial Robot with Varied Approach Velocities and Landing Gear Designs

Bryan Habas , Bader AlAttar , Brian Davis , Jack W. Langelaan , Bo Cheng

分类：机器人

2021-11-05

倒置着陆是一种在空中机器人中执行的具有挑战性的壮举，特别是没有外部定位。然而，它经常通过蜜蜂，苍蝇和蝙蝠等生物传递器进行。我们之前对苍蝇着陆行为的观察表明其推定的视觉提示与所执行的空中机动的运动学之间的开环因果关系。例如，旋转机动程度（因此在触摸之前的身体反转）和腿部辅助体挥杆的量取决于苍蝇的初始体状态，同时接近天花板。在这项工作中，通过使用基于物理的模拟进行实验验证，我们系统地研究了如何优化的倒置着陆操纵如何取决于具有不同幅度和方向的初始接近速度。这是通过分析推定的视觉提示（可在最佳的机动轨迹期间衍生出推定的视觉提示来完成的。我们识别了一个三维策略区域，可以在不使用外部定位数据的情况下开发到全局反转着陆策略的映射。此外，我们还调查了一系列着陆齿轮设计对优化着陆性能的影响，并确定了它们的优缺点。以上使用有限的实验测试部分验证了上述结果，并继续通知并指导我们未来的实验，例如通过应用计算的全球政策。

translated by 谷歌翻译